#Claude Opus

indigo
1周前
即便是最强大的模型,表现也差强人意!当把测试基准集换成 SWE-BENCH PRO 之后,得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重,AI 可能在训练中“背会”了答案;然后任务过于简单,与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升,而且还新增了企业级、长周期的任务👀 - 公开集(Public Set):表现最好的是 OpenAI GPT-5,解决了 23.3% 的问题,紧随其后的是 Claude Opus 4.1,解决率 22.7%; - 商业集(Commercial Set):成绩进一步下滑,表明企业级代码的复杂度更高。Claude Opus 4.1 以 17.8% 的解决率位居第一,GPT-5 为 14.9%; 三个核心发现 1. 顶尖模型的“思维瓶颈”:像 Claude Opus 4.1 和 GPT-5 这类最强大的模型,失败的主要原因在于“解决方案错误”(Wrong Solution)。这意味着它们能熟练地使用工具、编写语法正确的代码,但在最关键的“如何正确解决问题”这个核心逻辑层面“翻车”了; 2. 中小型模型的“基础不牢”:相比之下,一些较小的开源模型(如 Qwen3 32B)则更多地暴露了在语法、格式和工具使用上的问题。它们往往在任务执行的早期阶段就因基本操作失误而失败; 3. 不同模型的“个性化”弱点:例如,Sonnet 4 的主要问题是上下文窗口管理不善(Context Overflow),而 Gemini 2.5 的失败原因则较为均衡地分布在工具错误、语法错误和方案错误上。 所有模型普遍在 Python 和 Go 语言的任务上表现更好,而在 JavaScript/TypeScript 上表现不佳。 这意味着,当前最顶尖的 AI 距离成为一名可靠的、能独立解决复杂问题的软件工程师还有非常遥远的距离。我们在简单任务上看到的成功具有一定的“欺骗性”。AI 软件工程的瓶颈正在从“怎么写代码”转变为“如何思考问题”,对复杂逻辑的深刻理解是下一代 AI Agent 必须跨越的鸿沟🤔
宝玉
4个月前
来自 Reddit 一位拥有30多年经验的前FAANG(Facebook、Apple、Amazon、Netflix、Google)高级工程师被一个C++ Bug困扰了4年,花了约200小时却毫无进展。而Claude Opus 4竟然成功地解决了这个问题,并且是唯一能做到的AI智能体。 以下是 Reddit 上的帖子: *** Claude Opus 今天帮我解决了折磨我四年的「白鲸」级Bug 背景 我是一名拥有超过 30 年经验的 C++ 开发者,曾任职于 FAANG 公司担任高级工程师。我通常是团队里的问题终结者,当其他工程师卡住一周都解决不了问题时,他们来找我,我往往在他们站在我办公室里的时候,就能轻松搞定。 但今天,我被 Claude Opus 4 彻底折服了。 折磨了我四年的难题 四年前,我曾做过一次重构,对约 6 万行的代码进行了重新架构。重构解决了大量问题,但也带来了一个极端情况的 Bug。当某个特定着色器(Shader)以特定方式使用时,这个 Bug 就会显现。以前这个功能是好的,但重构之后,这个特定场景就坏了。 过去几年,我断断续续地花了至少 200 个小时想找到原因,但一直无功而返。这个问题非常恼人,但并不是特别紧急,没法完全停下手头的工作专心处理。 Claude Opus 4 的神奇表现 今天,我决定用 Claude Code 跑一下 Opus 版本来解决这个难题。我把新旧代码都给了它,告诉它:“去查一查,当年的重构到底是怎么导致这个问题的。” 让我没想到的是,它真的找到了! 原来,这个功能在旧架构里之所以能正常运行,纯粹是因为偶然的巧合。重构后的新架构并没有考虑到这个巧合情况,因此就产生了问题。所以严格意义上讲,这并不是简单的逻辑错误,而是新架构的设计本身遗漏了旧版特有的边界条件。 整个过程我一共向 Claude 提出了大约 30 个提示,中间重启过一次。 之前我也尝试过 GPT 4.1、Gemini 2.5 和 Claude 3.7,都没有任何进展。最终只有 Claude Opus 4 解决了这个困扰我四年的难题。